连载(7):统计图形艺术——散点图
中国近代启蒙思想家、翻译家严复(1854-1921)提出,翻译力求信、达、雅。统计图形,亦须如此。信(faithfulness),指意义不悖原文,要准确传达数据原有之义,不偏离,不遗漏,也不要随意增减意思;达(expressiveness),指不拘泥于固有形式,译力求通顺、易懂、明白;雅(elegance),指选用的图形、样式要得体,力求简明、优雅。
生物医学研究产生的数据纷繁复杂,合适的统计图形能够准确、简明、优雅的勾勒出数据背后之意,消除医学-数据-内涵之间的障碍,准确传递生物医学研究成果,这就是医学统计图形的魅力。
历经半年准备,我们图形小组将按照数据可视化、统计可视化、集成可视化三个模块,连载推送医学研究中常用统计图形之背景、场景、拓展、要点。文稿有多处不足,请广大读者斧正。尚有多处示例待优化,欢迎提供素材。
散点图Scatter Plot
散点图,其历史蜿蜒曲折,目前公认的是由英国著名天文学家、数学家John Frederick William Herschel在1833年关于双星轨道的研究《On the investigation of the orbits of revolving double stars》中首次提及 [1],用于1832年向英国皇家天文学会汇报该研究成果。
遗憾的是,论文未被广泛流传。值得一提的是,英国著名统计学家、生物学家Francis Galton对相关性概念的提出和回归分析方法的建立,对于散点图的发展当属浓墨重彩之一笔。他首次以图形形式来展示实际数据的二元关系。在Galton的第一张关于身高与头围的图中(图 7.1),我们可从中初步看到散点图的身影 [2]。
图7.1:Galton关于身高和头围的散点图
散点图适用于观察两个数值变量间的共变趋势,可判断是否存在离群值(outlier)。
向日葵散点图适用于密集分布的数据或分类数据。
平滑散点图同样适用于非常密集的数据,同时展示聚集现象。
例: 本例随机抽取500名江苏青少年身高和体重数据,以身高为自变量,体重为因变量,绘制散点图。
图7.2:江苏省500名青少年
身高体重散点图
散点图矩阵,由多个常规二维散点图构成,是散点图的高维扩展。将多个变量进行两两组合,绘制二维散点图,并以矩阵形式排列。
散点图矩阵,在一定程度上克服了在平面上展示高维度数据的困难,有助于了解数据变量间的两两关系。
可使用GGally包中的ggpairs函数绘制。
例:本例根据palmerpenguins包中提供的巴布亚企鹅(Gentoo)身体结构数据,绘制企鹅的喙长度、宽度、短翼长度及体重的散点图矩阵(图 7.3)。
图7.3:企鹅喙长度、宽度、
短翼长度、体重散点图矩阵
散点图往往用于展示两变量间是否存在数据共变趋势,而将散点图同时结合直方图或箱线图以体现数据的分布情况,可让读者更好地认识数据。
可使用ggMarginal函数在散点图的各维度上加上直方图或箱线图。
例:本例将展示江苏省500名青少年身高体重的分布以及相关系数(图 7.4)。
图7.4:江苏省500名青少年
身高体重散点图叠加箱线图
通过对散点图进行数据平滑,通过函数拟合其趋势,来去除离群点(outlier)的干扰。
可通过geom_smooth函数实现参数化的平滑。
例:本例对1000名江苏省小学男生身高和体重数据,分别进行局部加权回归(LOESS)(A图)和一元线性回归(B图)的平滑(图 7.5)。
图7.5:江苏省青少年
身高体重平滑曲线图
平滑散点图,是基于二维核密度估计,在散点图中用指定颜色的深浅来表示某个位置的数值密度值大小。
颜色越深,表示二维密度值越大,即该数据点越密集。
从平滑散点图上不仅可以观察到两变量间的关系,还能进一步显示变量的密度。
例:本例以江苏省32055名青少年身高、体重数据为例,来绘制平滑散点图(图 7.6)。
图7.6:江苏省青少年
身高体重平滑散点图
向日葵散点图,是为了克服散点图中数据点重叠导致无法显示数据密度而发明的一种特殊散点图。
在图中用“向日葵”的花瓣数目来表示该点重叠数据的个数,尤其适用于分类变量间的关系的展示。
例:本例以不同地区受保人子女数量为数据,绘制向日葵图(图 7.7)。
图7.7:各地区受保人子女数量向日葵图
气泡图,是散点图的变体,在传统散点图的基础上,用第3个维度的变量值作为每个点的半径,形似大大小小的气泡,称为气泡图。还可以引入第4个维度的变量来填充颜色。
2006年瑞典卡罗琳学院全球公共卫生专业的Hans Rosling教授在TED节目中以静态和动态气泡图的形式展示不同国家人均收入与期望寿命的关系,让人眼前一亮。
例:本例以2011年不同国家人口为第3维度(气泡大小),以不同国家为第4维度(颜色)展示GDP与出生期望寿命的气泡图(图 7.8)。
图7.8:2011年不同国家GDP与
出生时期望寿命的气泡图
续上例,对于包含时间序列的气泡图来说,将其动态化更能清晰地表现出变量间以及变量随时间变化的情况。
例:本例将效仿Rosling教授,展示1998年至2018年不同大洲GDP、人口数及出生期望寿命的动态气泡图(图 7.9)。
图7.9:不同大洲1998-2018年
GDP与人群期望寿命动态气泡图
散点图所体现的是变量间的共变关系,并非因果(依存)关系,勿过度解读。 散点图中的离群值不可随意移除,以免影响样本的代表性,导致偏倚。 气泡图中,数值大小默认体现于气泡面积,而非半径。如果是数值体现于半径,则气泡的大小会呈指数级变化,会产生视觉误差。
参考文献:
Herschel J. On the investigation of the orbits of revolving double stars.
Friendly M, Sciences DD. The early origins and development of the scatterplot. 2005;41(2):103–30.
写作:魏永越*,张隆垚
排版:李 颖
审阅:陈 峰
欢迎供稿 | 敬请斧正
easyPlot小组 (easyplot@126.com)
责任作者 (weiyongyue@126.com)
Powered by 百步科技
连载(1):统计图形艺术——条形图
连载(2):统计图形艺术——线图
连载(3):统计图形艺术——饼图
连载(4):统计图形艺术——直方图
连载(5):统计图形艺术——点图
连载(6):统计图形艺术——箱线图
统计图形艺术——“图形”英文词意辨析